盖世汽车 Daisy2026-03-17
3月17日,理想汽车在NVIDIA GTC 2026上发布了下一代自动驾驶基础模型MindVLA-o1。与2025年量产交付的VLA司机大模型相比,这一代模型在架构层面进行了系统性升级,核心变化在于:将3D空间理解、多模态推理、行为生成整合至同一原生多模态模型框架,并引入闭环强化学习与软硬件协同设计机制。
从技术路线来看,MindVLA-o1不再只是自动驾驶领域的模型迭代,而是向“面向物理世界的通用智能体”迈出的一步。
从“双系统”到“统一模型”:技术架构的三级跳
理想汽车的辅助驾驶技术演进路径,大致可以划分为三个阶段。
2024年之前,行业主流方案仍以规则驱动或传统模块化架构为主。理想汽车在2024年实现端到端+VLM双系统量产交付,首次将跨场景的统一理解能力带入实车。
2025年,理想进一步将空间理解、语言理解与行动决策整合至同一模型框架,推出基于VLA、世界模型与强化学习的VLA司机大模型,并于当年8月随理想i8交付正式推送。
截至2025年底,理想方面公布的数据显示,VLA司机大模型月使用率达到80%,VLA指令累计使用超过1200万次。春节期间的辅助驾驶总里程达到2.5亿公里,VLA指令使用次数超过130万次。
规模化用户验证带来的真实场景数据,为MindVLA-o1的研发提供了训练基础。
从技术披露来看,MindVLA-o1的核心架构基于原生多模态MoE(混合专家)Transformer,主要技术改进集中在五个维度。

图片来源:理想汽车
3D空间理解。传统视觉模型多以2D图像为处理单元,而MindVLA-o1采用以视觉为核心的3D ViT编码器,并引入激光雷达点云作为三维几何提示。同时加入前馈式3DGS表示,将场景拆分为静态环境与动态物体分别建模,通过下一帧预测作为自监督信号,使模型同时学习深度信息、语义结构与物体运动。
这一机制的目的是让模型在感知层面同时具备语义理解与三维空间感知能力,解决此前2D感知向3D控制映射时的信息损失问题。
多模态思考。在语言模型承担语义理解、常识交互的基础上,理想引入预测式隐世界模型。训练分为三个阶段:用海量视频数据预训练隐世界词元;在MindVLA-o1中持续进行世界模型推演;将世界模型、多模态推理及驾驶行为进行联合训练与对齐。
这一设计使模型能够在隐空间中模拟未来几秒的场景演化,而不只是基于当前帧做出反应。理想将这一能力定义为“多模态思考”。
统一行为生成。在行为层面,MindVLA-o1引入了专门的Action Expert,从3D场景特征、导航目标、驾驶指令中提取输入,结合多模态思考生成驾驶轨迹。
为满足实时性要求,系统采用并行解码同时生成所有轨迹点,并引入离散扩散进行多轮迭代优化,确保轨迹空间连续、时间稳定,并符合车辆动力学约束。
闭环强化学习。这一机制的目的是让模型能够从真实数据中学习,同时在世界模拟器中持续探索和优化策略。理想方面将传统逐步优化式重建升级为前馈场景重建,使系统能够瞬时生成大规模、高保真驾驶场景,支持大规模并行训练。
为实现这一目标,理想开发了统一的3D Gaussian Splatting渲染引擎和分布式训练框架。据理想方面透露,渲染速度提升近2倍,整体训练成本降低约75%。
软硬件协同设计。针对端侧大模型部署耗时长、调试频繁的问题,理想提出面向端侧大模型的软硬件协同设计框架,将模型结构与验证损失建模,结合Roofline模型刻画硬件计算能力与内存带宽限制。
理想基座模型团队评估了近2000种模型架构配置,在英伟达Orin与Thor平台上完成验证,找到模型精度与推理延迟之间的Pareto前沿,将架构探索时间从数月缩短至数天。
从自动驾驶到物理世界智能
MindVLA-o1并非孤立存在的模型,而是理想面向物理世界智能的核心AI框架的组成部分。
这一框架由四个模块组成:MindData,负责数据采集、清洗和自动标注的VLA数据引擎;MindVLA-o1,原生多模态VLA模型;MindSim,可控的多模态世界模型,用于生成复杂驾驶场景并支持大规模闭环训练;RL Infra,强化学习基础设施,通过奖励模型和策略学习实现系统在仿真与真实环境中的自我进化。
四个模块协同形成闭环,使AI系统能够完成感知、理解、行动和持续优化的完整流程。

图片来源:理想汽车
理想汽车基座模型负责人詹锟在演讲中表示:“当我们把视觉、语言和行动统一到一个模型中时,它已不再只是自动驾驶模型,而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型,不仅可以控制车辆,也能够扩展到机器人。”
这一表述背后是理想对自身定位的重新定义:车被视为“最大号的机器人”,而理想汽车的本质是构建硅基生命体的躯干与大脑。
从2024年的端到端量产,到2025年的VLA上车,再到2026年的MindVLA-o1发布,中国智能驾驶行业的竞争焦点正在从“能否跑通”转向“基础模型的能力上限”。
头部玩家之间的技术差距,正在从功能实现层面,拉升至底层模型架构层面。MindVLA-o1的价值不在于单一指标的提升,而在于它试图构建一个能够同时处理感知、推理、规划、执行,并具备自我进化能力的统一框架。
这套框架的通用性意味着,它确实具备向机器人及其他物理系统扩展的潜力。但短期内,自动驾驶仍是其最直接的应用场景。
从行业竞争格局来看,具备底层模型自研能力、数据闭环能力、软硬件协同设计能力的玩家,正在形成新的头部梯队。而MindVLA-o1的发布,标志着理想在这一梯队中完成了从追赶者到定义者的角色转换。
接下来需要关注的是:这套模型架构在实际路测中的表现,以及它能否在量产车上实现预期的性能提升和部署效率优化。毕竟,技术架构的前瞻性最终仍要接受真实场景的验证。

全球视野,中国声音,快来体验吧